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摘要 : [目的 /意义 ] 在 社会 化 标注 系统 中 ,标签 质量 往往 关乎 用 户 对 网 络 资源 的 分 类 、 查 询 、 浏 览 获 取 等 
使 用 体验 ,确定 影响 标签 质量 的 关键 因素 有 助 于 进一步 优化 社会 化 标注 系统 的 资源 组 织 核心 功能 。[ 方 法 /过 
程 ] 以 社会 化 标注 系统 的 标签 为 研究 对 象 , 从 标注 主体 、 标 注 客体 、 标 注 环境 、 标 注 动 机 、 标 注 方式 、 标 注 产物 等 
维度 入 手 重 构 标 签 质 量 影响 因素 模型 ,尝试 探究 影响 社会 化 标签 质量 的 关键 因素 ,并 运用 问卷 调查 方法 收集 数 
据 , 结 合 有 监督 学 习 的 随机 森林 算法 ,建立 标签 质量 影响 因素 的 决策 树 模 型 。[ 结果 /结论 ] 结果 显示 ,标注 主体 

影响 标签 质量 的 首要 关键 维度 ,主体 的 知识 结构 和 认 知 水 平 .标注 频 度 及 其 感知 有 用 性 对 标签 质量 的 影响 突 
ead 
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全 化 标注 系统 ( Sooial Tacins Svatem STS) 作为 ”质量 的 关键 因素 是 从 根本 上 提高 标签 质量 的 关键 
dni 此 ,笔者 从 影响 标签 质量 的 各 个 因素 出 发 ,计算 各 个 影 

Web2.0 时 代 新 兴 的 网 络 信息 资源 组 织 和 管理 系统 , 允 ee eae 

, i “ ” 响 因 素 对 于 标签 质量 的 影响 权重 ,这 不 仅 能 从 根本 上 

放电 户 自由 地 对 网 络 资源 进行 描述 和 标注 ,产生 的 标 。 外 决 二 您 质 量 评 信 权 重 确定 的 问题 采用 权重 系数 所 

希 渤 于 网 络 资源 的 组 织 和 索引 非常 有 效 口 。STS 是 Do 


统计 指标 体系 相 结合 可 完善 标签 质量 评 
Wg 党 .0 网 络 环境 下 用 户 依据 自我 认 知 对 网 络 资源 自 。” 现 有 统 ” 指标 体系 相 结 合 可 以 更 好 地 拖 资 奈 答 质量 评 


由 葬 米 申 标 您 以 实现 网 络 资源 措 述 分 类 及 导航 的 平 ”” 估 模型 ,而 且 社会 化 标注 系统 也 可 据 此 采取 有 效 的 改 
台 四。 当然 ,用 户 所 张贴 标签 的 质量 往往 有 优 劣 之 分 。 ” 进 措施 来 提高 标签 质量 ,促进 网 络 信息 资源 的 组 织 
标签 质量 是 对 标签 能 否 精准 地 描述 待 标注 的 网 络 资 索引 ,这 对 Web2.0 环境 下 以 用 户 为 中 心 的 社会 化 标 
源 ,以 方便 用 户 对 网 络 资源 的 分 类 .查询 .浏览 .获取 及 注 系 统 的 功能 元 善 具有 重要 参考 意义 。 

ee da ee te eee 
注 环境 ,标注 动机 标注 方式 及 标注 产物 等 因素 密切 相 

关 。 当 前 社会 化 标注 系统 中 的 标签 数量 急剧 增多 ,但 目前 ,多 数学 者 并 不 将 标签 质量 影响 因素 作为 独 
质量 却 参差 不 齐 , 这 极 大 地 影响 了 用 户 对 网 络 信息 资 ” 立 的 研究 议题 ,而 是 将 其 作为 标签 质量 评估 研究 的 一 
源 的 分 类 查询 .浏览 获取 及 分 享 等 体验 。 就 此 问题 ， ”个 环节 。 歌 冬 持 的 观点 而 言 , 也 有 多 维度 综合 影响 因 
国内 外 众多 学 者 从 标签 评估 和 推荐 出 发 ,通过 对 标签 。 素 及 单 维度 关键 影响 因素 两 种 类 别 : 

质量 评估 来 推荐 高 质量 的 标签 供用 户 使 用 ,而 对 于 如 (1) 多 维度 综合 影响 因素 。 此 类 研究 认为 标签 质 
何 减少 低 质 量 标签 的 出 现 . 及 出 现 的 原因 却 研究 其 。 量 受 标注 主体 ,标注 环境 ,标注 动机 以 及 标注 方式 等 综 
少 中 1。 标签 质量 既 有 高 低 之 分 , 便 有 影响 其 高 低 的 因 ” 合 因 素 共同 作用 的 影响 , 章 成 志 团队 即 是 其 中 代表 ,其 
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主要 观点 是 标注 主体 过 于 自由 随意 .过 于 主观 是 导致 
标签 质量 低下 的 重要 原因 ,标注 系统 功能 机 制 的 不 健 
全 等 标注 环境 因素 也 会 影响 标签 质量 ,规范 标签 提示 、 
标签 拼写 提示 等 标注 方式 因素 可 以 减少 标签 错 拼 , 歧 
义 和 同 义 的 现象 ,同时 标注 动机 的 不 同 会 导致 标签 质 
量 的 差异 “5 。 

(2) 单 维度 关键 影响 因素 。 此 类 研究 倾向 于 标签 
质量 受 某 个 关键 因素 的 影响 ,其 中 认为 “标注 方式 "是 
关键 影响 因素 的 居多 。 黄 如 花 在 对 WondCat Flickr、 
Bibsonomy 以 及 豆 办 的 标签 质量 控制 进行 研究 时 指出 ， 
可 从 规范 标签 提示 、 标 签 拼 写 提示 、 检 错 机 制 \ 以 及 标 
注 指南 等 方面 提高 标签 质量 ; 吴 方 枝 在 对 Flickr 的 
标签 质量 控制 研究 中 也 持 相似 见解 ,并 补充 指出 重视 
热 问 标签 管理 也 可 提高 标签 质量 ;N，Sogol 等 提出 
通 祥 标签 推荐 可 提高 标签 质量 ;C. Hall 等 提出 可 引 
用 纲 控 词 表 进 行 标签 推荐 进而 达到 提高 标签 质量 的 目 
的 妆 ,M.， Guy 也 强调 输入 提示 拼写 检查 .标签 推荐 等 
方式 对 标签 质量 有 着 重要 影响 。 
六 -当然 ,也 有 些 学 者 认为 “标注 环境 ”是 关键 因素 ， 
特别 是 社会 化 标注 系统 的 界面 会 对 标签 质量 产生 影 
嘛 fFP，Floeck 等 指出 社会 化 标注 系统 的 界面 设计 会 
影 顺 标签 的 质量 ,强调 了 标注 环境 对 于 标签 质量 的 影 
只 间 ;S，Sen 等 认为 改进 社会 化 标注 系统 界面 可 以 达 
到 提高 标签 质量 的 目的 "1!。 
>< 更 有 部 分 学 者 强调 “标注 主体 " 才 是 关键 因素 , 朱 
庆 伦 认为 用 户 规模 、 用 户 结构 以 及 用 户 的 标注 频 度 等 
主体 特征 会 对 标签 检索 质量 产生 影响 ; 罗 琳 通过 实 


证 硼 究 得 出 豆 辨 图书 标签 的 信息 质量 .感知 有 用 性 、 感 
知 易 用 性 会 正 向 影响 主体 的 标注 意愿 "9 。 

无 论 是 秉持 多 维度 综合 影响 因素 的 观点 ,还 是 单 
维度 关键 影响 因素 的 看 法 ,学 者 们 就 社会 化 标注 系统 


分 析 通 过 显著 性 水 平 来 衡量 因素 对 变量 的 影响 ,但 回归 
方程 假设 严格 , 需 知 引起 因 变量 改变 的 所 有 人 解释 变量 的 
因素 ,否则 易 出 现 伪 回归 问题 ;层次 分 析 法 适用 于 多 方 
案 择 优 , 且 在 指标 过 多 时 会 出 现 判 断 和 矩阵 阶 数 变 大 , 赋 
值 困 难 ,精度 较 差 等 问题 ;SVM 机 器 学 习 算 法 虽 理 论 完 
善 ,但 其 多 适用 于 二 分 类 问题 ,对 于 多 分 类 问题 效果 较 差 。 

综合 考量 下 ,本 研究 拟 选用 随机 森林 的 机 器 学 习 
算法 建立 影响 因素 特征 与 标签 质量 之 间 的 预测 模型 ， 
进而 用 分 类 絮 加 以 分 类 预测 。 随 机 森林 在 处 理 该 问题 
时 具有 以 下 优势 :中 相对 于 主 成 分 分 析 法 ,随机 森林 能 
够 通过 对 数据 资料 的 客观 训练 直接 得 到 各 个 影响 因素 
的 权重 ,而 前 者 必须 将 众多 影响 因素 通过 降 维 进而 得 
到 主 成 分 的 权重 , 且 各 个 影响 因素 的 权重 无 从 得 知 ;@ 
相对 于 多 元 回归 分 析 , 随机 森林 不 需要 穷尽 引起 因 变 
量 改 变 的 所 有 解释 因素 ,而 且 随 机 森林 具有 样本 随机 
性 和 特征 随机 性 , 抗 拟 合 能 力 强 ,可 避免 伪 回 归 问 题 ; 
色相 对 于 层次 分 析 法 ,随机 森林 能 分 析 大 规模 样本 , 抗 
保 声 能 力 强 ,得 到 的 影响 因子 更 可 靠 ,精度 更 高 ” ;@ 
相对 于 SVM 等 机 器 学 习 模 型 ,随机 森林 得 到 的 决策 树 
模型 容易 解释 ,以 让 then 的 规则 形式 建立 的 影响 因素 特 
征 和 标签 质量 之 间 的 关系 ,通俗 易 懂 、 易 于 理解 和 应 用 。 


4 ”标签 质量 影响 因素 模型 

笔者 在 相关 研究 提出 的 标签 质量 影响 因素 基础 
上 ,通过 阅读 大 量 国内 外 相关 文献 ,访谈 专业 研究 人 员 
以 及 社会 化 标注 系统 用 户 等 方式 ,最 终 提出 标签 质量 


影响 因素 模型 ,该 模型 从 标注 主体 、 标 注 客体 、 标 注 环 
境 、 标 注 动机 、 标 注 方式 以 及 标注 产物 6 个 维度 度量 各 
因素 对 标签 质量 的 影响 。 见 图 1 。 

(1) 标 注 主体 即 标注 者 ,其 学 科 背 景 、 知 识 结构 和 
认 知 水 平 标注 频 度 .兴趣 偏好 以 及 标注 情绪 等 因素 必 


标签 质量 的 可 能 影响 因素 已 能 求同存异 ,但 遗憾 的 是 
当前 研究 多 侧重 于 关注 有 哪些 相关 因素 ,而 未 系统 地 
探寻 这 些 因素 对 于 标签 质量 影响 的 一 般 性 权重 关系 。 
这 恰恰 是 本 研究 所 要 尝试 解决 的 问题 。 


3 全 加 方法 


承 上 而 言 , 本 研究 旨 在 探寻 多 影响 因素 对 标签 质 
量 影响 的 权重 ,本 质 上 是 属于 权重 确定 问题 ,最 常用 的 
定 权 方 法 有 主 成 分 分 析 法 .多 元 回归 分 析 .层次 分 析 法 
及 基于 支持 向 量 机 (SVM) 的 机 器 学 习 方 法 等 。 

主 成 分 分 析 法 适用 于 多 变量 转化 为 少数 几 个 综合 
特征 ( 主 成 分 ) 的 降 维 问题 中 的 权重 确定 ;多 元 回归 
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会 对 标签 质量 产生 影响 ; 

(2) 标 注 客 体 即 标注 对 象 ,也 就 是 待 标注 的 网 络 
资源 ,其 数量 、 质 量 和 类 型 对 于 标签 质量 也 会 产生 一 定 
的 影响 ; 

(3) 标 注 环境 主要 指 用 户 实施 标注 行为 的 各 种 社 
会 化 标注 系统 平台 ,其 功能 是 否 完整 .性 能 是 否 优越 以 
及 平台 是 否 稳定 均 会 影响 标签 质量 ; 

(4) 标 注 动机 主要 指 用 户 产 生 标 注 行 为 的 动力 和 
原因 。 标注 动机 一 般 涵盖 揭示 资源 主题 /分 类 /属性 
(关于 什么 ) 描述 资源 载体 /类 型 (是 什么 ) .拥有 者 、 
修饰 标签 ( 细 化 和 限定 现 有 的 标签 )、 描 述 资源 的 特 
征 、 自 我 引用 与 参考 ,任务 与 个 人 资源 管理 7 种 "”; 
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(5 ) 标注 方式 主要 包括 自由 式 标注 和 干预 式 标 
洋 眉 标签 推荐 .规范 标签 提示 标签 拼写 提示 、 标 注 指 
醒 治 错 机 制 是 目前 主要 的 5 种 干预 式 标注 机 制 ; 
会 (6) 标 注 产物 即 标签 本 身 。 标 签 的 质量 与 自身 形 
仿 犁 直接 关系 ,歧义 、 同 义 、 错 拼 等 形态 的 标签 占 比 高 
是 际 签 质量 低 的 直接 表现 。 
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Ss ”社会 化 标签 质量 影响 因素 实证 研究 


5.1 问卷 设计 
根据 笔者 提出 的 模型 假设 以 及 问卷 设计 的 一 般 规 


律 ,将 问卷 设计 为 3 个 板块 , 见 表 1。 

(1) 基 本 信息 板块 。 虽 然 这 些 基 本 信息 不 直接 属 
于 笔者 提出 的 标签 质量 影响 因素 模型 ,但 是 考虑 到 其 
对 预测 结果 可 能 会 产生 影响 , 故 将 其 加 入 问卷 中 ,这 一 
板块 主要 包含 Q1 - Q6 共 6 个 问题 。 

(2) 影 响 因素 特征 板块 。 这 一 板块 主要 包括 Q7 - 
Q35 共 29 个 关于 标签 质量 影响 因素 的 问题 ,根据 李 殉 
特 量 表 的 法 则 ,涵盖 标注 主体 标注 客体 .标注 环境 、 标 
注 动机 、 标 注 方式 及 标注 产物 6 大 主要 维度 。 用 户 将 
按照 对 其 接受 程度 (非常 不 同意 ,不 同意 、 一 般 、 同 意 、 
非常 同意 ) 对 每 个 问题 进行 选择 。 

(3 ) 目标 特征 板块 ,这 一 板块 包括 Q36 一 个 问题 ， 
表征 了 标签 质量 的 5 个 等 级 ,用 户 通过 填写 对 这 个 说 


规范 标签 提示 :去 辟 =2013. 2015. 
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标签 拼写 提示 :会 飞 二 2013. 20135. 
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影响 因素 模型 


法 的 接受 程度 ,来 量化 其 标签 质量 的 高 低 。 
5.2 数据 采集 及 检验 

为 确保 研究 结果 的 科学 性 和 准确 性 ,本 研究 将 问 
卷发 放 对 象 划 分 为 具有 信息 组 织 背 景 的 用 户 和 普通 用 
户 。 发 放 渠 道 主 要 有 两 种 (括号 内 为 收回 问卷 数量 ) : 
中 通过 E-Mail 向 从 事 信息 组 织 特别 是 社会 化 标注 系 
统 研究 的 高 校 与 科研 机 构 的 教师 (76 人 ) 及 学 生 (113 
人 ) 发 放电 子 问卷 ;@C) 通 过 分 享 问卷 链接 和 二 维 码 向 豆 
办 (图 书 (18 人 ) 电影 (27 人 ) 音乐 (31 人 ) ) .Flickr 
(17 人 ) .博客 (44 人 ) 、 Diigo(19 人 ) Pinterest(28 人 ) 、 
好 网 角 (19 人 ) 等 多 个 社会 化 标注 平台 用 户 在 线 发 送 
问卷 。2 个 月 共 发 放 问 卷 523 份 ,收集 调查 问卷 429 
份 ,其 中 有 效 问卷 392 份 ,问卷 回收 率 为 82% 。 在 样本 
中 ,男女 性 别 比 为 136:256; 年 龄 大 多 分 布 在 21 - 30 
岁 , 共 277 人 ,这 也 是 社会 化 标注 平台 的 主要 用 户 人 
群 ,21 岁 以 下 36 人 ,31 -40 岁 53 人 ,40 岁 以 上 26 人 ; 
调查 对 象 的 文化 程度 大 多 集中 在 本 科学 士 学 位 (137 
人 ) 和 硕士 学 位 (172 人 ) ,专科 高 中 及 以 下 (学 士 学 位 
以 下 ) 和 博士 学 位 较 少 ,分 别 为 36 人 和 47 人 ;其 中 普 
通用 户 `. 具 有 信息 组 织 学 科 背 景 专业 用 户 的 比例 为 
203 :189 ,接近 1 :1; 在 社会 化 标注 系统 中 发 布 过 网 络 资 
源 的 人 数 与 未 发 布 过 的 人 数 之 比 为 164:228 ;接触 任意 
社会 化 标注 系统 (如 豆瓣 网 ) 的 人 数 占 86% ,说 明 绝 大 
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表 1 问卷 设计 表 


维度 编号 问 项 及 选项 
基本 信息 板块 
Q1 ”性 别 ( 男 / 女 ) 
Q2 年龄 (21 岁 以 下 ,21 -30 岁 ,31 -40 岁 ,40 岁 以 上 ) 
Q3 ”文化 程度 (专科 、 高 中 及 以 下 (学 士 学 位 以 下 ) ,本 科 ( 学士 学 位 ) ,硕士 学 位 ,博士 学 位 ) 
Q4 ”背景 (普通 人 员 / 信 息 组 织 学 科 背 景 的 专业 人 员 ) 
Q5 ”网 络 资源 拥有 者 及 发 布 者 (在 社会 化 标注 系统 中 发 布 过 网 络 资源 ) (是 / 否 ) 
Q6 ”接触 任意 社会 化 标注 系统 (如 豆 泊 网 ) 的 时 间 ( 从 不 ,1 年 以 内 ,1 年 -3 年 ,3 年 以 上 ) 


影响 因素 特征 板块 


标注 主体 Q7 


区 


是 网 络 资源 分 类 专业 知识 的 用 户 较 之 未 受 该 类 训练 者 更 能 标注 高 质量 的 标签 


Q8 。 用 户 对 网 络 资源 内 容 及 相关 领域 的 知识 结构 和 知识 背景 越 熟悉 ,标注 的 标签 质量 越 高 
Q9 。 用 户 对 社会 化 标注 系统 的 标注 功能 越 熟 悉 ,标注 的 标签 质量 越 高 
Q10 。 用户 标 注 网 络 资源 时 的 心情 状态 越 好 ,标注 的 标签 质量 越 高 
Q11 ”用 户 对 网 络 资源 内 容 的 兴趣 偏好 越 强 ,标注 的 标签 质量 越 高 
Q12 。” 当 用 户 认为 社会 化 标注 流程 容易 学 习 和 操作 时 ,标注 的 标签 质量 更 高 
5 Q13 。 当 用 户 意识 到 标签 有 助 于 自身 及 他 人 对 网 络 资源 的 检索 ,推荐 和 分 享 时 ,标注 的 标签 质量 更 高 
客体 。 Q14 。 相对 于 富 媒体 类 型 网 络 资源 ( 如 图 片 .视频 音乐 等 ) ,用 户 对 以 文本 类 型 为 主 的 网 络 资源 添加 的 标签 质量 更 高 
C9 Q15 ”社会 化 标注 系统 中 , 待 标注 网 络 资源 的 数量 越 多 ,用 户 标注 的 标签 质量 越 高 
A Q16 ”社会 化 标注 系统 中 , 待 标注 网 络 资源 的 质量 越 高 ,用 户 标注 的 标签 质量 越 高 
Rr Q17 ”用 户 在 功能 完整 (涵盖 标注 ,检索 .导航 ,推荐 . 群 组 .分 类 等 功能 ) 的 社会 化 标注 系统 中 标注 的 标签 质量 更 高 
~ Q18 ”用 户 在 性 能 优越 (响应 速度 快 .界面 友好 ,容易 操作 等 ) 的 社会 化 标注 系统 中 标注 的 标签 质量 更 高 
OO Q19 用户 在 平台 稳定 性 强 (兼容 性 好 .容错 率 高 .维护 及 时 资源 更 新 及 时 、 商 业 运 营 稳 定 等 ) 的 社会 化 标注 系统 中 标注 的 标签 质量 更 高 
(| 汪 注 动机 。 Q20 用 以 揭示 资源 主题 标注 的 标签 较 之 其 它 标签 质量 更 高 
CN Q21 ”用 以 揭示 网 络 资源 载体 或 类 型 的 标签 (如 书籍 文章 .博客 ) 较 之 其 它 标签 质量 更 高 
总 Q22 ”用 以 揭示 网 络 资源 的 作者 .协作 者 的 标签 较 之 其 它 标签 质量 更 高 
宣 Q23 ”用 以 修饰 现 有 标签 的 标签 较 之 其 它 标签 质量 更 高 
> Q24 。 用 以 描述 资源 特征 的 标签 (如 有 趣 . 雷 人 ) 较 之 其 它 标签 质量 更 高 
>< Q25 。 用 以 个 人 参考 ( 如 我 买 过 的 ,我 的 书 ) 的 标签 较 之 其 它 标签 质 量 更 高 
© Q26 ”用 以 自身 任务 管理 (如 找 工作 ) 的 标签 较 之 其 它 标签 质量 更 高 
.所 方式 。 027 提供 标 答 推 荐 机 制 ( 如 热门 标签 等 非 受 榨 推 荐 或 从 词 表 主题 记 表 等 受 控 词 表 推荐 ) 的 标注 方式 冬 之 不 加 任何 二 项 的 标注 方式 ,前 者 标 
CS 注 的 标签 质量 更 高 
O 028 。 提供 标签 规范 提示 ( 用户 输 入 标签 时 ,系统 将 可 能 匹配 的 规范 标签 自动 推荐 给 用 户 ) 的 标注 方式 较 之 不 加 任何 干预 的 标注 方式 ,前 者 标 
注 的 标签 质量 更 高 
Q29 ”提供 标签 拼写 提示 ( 如 符号 限制 .标签 长 度 限制 ) 的 标注 方式 较 之 不 加 任何 干预 的 标注 方式 ,前 者 标注 的 标签 质量 更 高 
030 。 提供 标签 检 错 机 制 (大 小 写 . 单 复数 简 缩写 结合 词 以 及 简 繁 词 等 词汇 榨 制 ,输入 法 纠 错 等 ) 的 标注 方式 较 之 不 加 任何 干预 的 标注 广 
式 ,前 者 标注 的 标签 质量 更 高 
Q31 。 提供 标注 指南 ( 如 * 什 么 是 标签 "“ 标 注入 门 指导 ” ) 的 标注 方式 较 之 不 加 任何 干预 的 标注 方式 ,前 者 标注 的 标签 质量 更 高 
标注 产物 ”0Q32 ”不 存在 歧义 的 标签 质量 更 高 
Q33 ”不 存在 同义词 的 标签 质量 更 高 
Q34 ”不 存在 错 拼 现象 的 标签 质量 更 高 
Q35 ”热门 标签 较 之 其 它 标签 的 质量 更 高 
目标 特征 板块 
0Q36 ”社会 化 标注 系统 中 “标签 质量 "对 于 衡量 “标签 能 于 精准 地 描述 待 标注 的 网 络 资源 ,以 方便 用 户 对 网 络 资源 的 分 类 、 查 询 ,浏览 .获取 及 


利用 "至 关 重 : 
部 分 调查 对 象 对 社会 化 标注 系统 的 功能 和 标注 过 程 均 。 用 常用 的 Cronbach s Alpha 系数 。 结 果 显示 ,Alpha 的 
有 一 定 了 解 ,其 中 接触 时 间 1 年 以 内 的 有 106 人 ,1 年 值 为 0.931 >0.8 ,说 明 量 表 信和 度 很 好 ;问卷 量 表 的 结构 
-3 年 的 有 74 人 ,3 年 以 上 的 157 人 。 
笔者 之 后 对 392 份 问卷 所 得 的 数据 导入 SPSS 21.0 ”KM0O 的 值 为 0.912 >0.7,Bartlett 的 球形 度 检验 卡 方 值 
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行 信 效 度 检验 。 本 研究 问卷 量 


效 度 采 用 KMO 和 Bartlett 进行 检验 。 结 果 效 度 系 数 


EE 表 的 信和 度 检验 方法 采 为 5 661. 566 ,df =435 ,sig =0.000, 具 有 统计 学 意义 ,说 


~ hinnyviwv 全 人生 甘 日 于 || 
C | InaxIV 互 | 六 用 和 | 


张 云 中 , 秦 艺 源 . 社会 化 标注 系统 标签 质量 影响 因素 研究 :基于 随机 森林 算法 [J]. 图 书 情报 工作 ,2019 ,63(24) :119 -126. 


明 问 卷 量 表 的 结构 设计 合理 。 
5.3 数据 预 处 理 

通过 问卷 调查 收集 到 的 数据 都 是 以 文本 形式 存在 
的 ,不 能 直接 用 于 机 器 学 习 的 模型 训练 和 测试 过 程 , 因 
此 首先 要 对 其 进行 量化 处 理 。 
5.3.1 有 序 特征 的 量化 ”对 于 Q2、Q7 - Q36 等 所 有 
利用 李 克 特 量 表 进 行 统计 的 问题 ,5 个 选项 之 间 都 存 
在 明显 的 顺序 关系 ,各 个 选项 之 间 的 差异 反映 用 户 的 
接受 程度 ,这 类 特征 被 称 为 有 序 特征 ,在 进行 量化 时 可 
直接 将 各 个 选项 按 顺序 赋予 一 个 整数 值 。 如 Q8 在 测 
量 主体 的 知识 结构 和 认 知 水 平 对 标签 质 量 的 影响 时 ,5 
个 选项 按照 用 户 对 其 接受 程度 进行 顺序 排列 ,其 值 可 
以 用 1 -5 这 5 个 自然 数 表示 。 因 此 Q7 - Q36 特征 均 
被 其 化 到 1 -5 之 间 ,Q2 特征 的 取 值 在 1 -4 之 间 。 由 
无 栅 器 学 习 对 特征 间 的 尺度 差异 很 敏感 ,因此 还 需 采 
用 Cscore 标准 化 方法 对 特征 进行 归 一 化 处 理 "" ,利用 
转化 函数 将 特征 取 值 不 同 的 Q2 与 Q7 - Q36 统一 到 相 
同 的 取 值 空间 ,转化 函数 如 公式 (1) 所 示 : 


We 公式 (1) 


CD 其 中 ,X 为 未 归 一 化 的 单个 特征 ,hk 为 所 有 未 归 一 
化 特征 的 平均 值 ,o 为 未 归 一 化 特征 的 标准 差 ,X" 为 
旺 当 化 后 的 特征 。 归 一 化 的 特征 为 0-1 之 间 的 实数 ， 
保留 着 特征 中 存在 的 有 序 信息 。 

浊 @C 无 序 特 征 的 量化 ”对 于 Q1 性 别 .Q3 文化 程度 、 
Q4 缚 景 .Q5 是 否 是 信息 资源 拥有 者 及 发 布 者 .6 接触 
STSJ 时 间 等 问题 ,各 个 选项 之 间 不 存在 明显 的 数据 差 


on 


指标 在 于 信息 增益 。 在 决策 树 学 习 算 法 中 ,信息 增益 
是 特征 选择 的 一 个 重要 指标 ,用 以 衡量 一 个 特征 能 够 
为 分 类 特征 贡献 信息 的 大 小 ,如 其 贡献 的 信息 越 多 ,说 
明 该 特征 越 重 要 ,相应 的 信息 增益 就 越 大 。 本 研究 中 
言 息 增益 用 以 表现 各 个 特征 对 于 数据 集 的 重要 程度 。 
在 计算 完 各 个 影响 因素 特征 的 信息 增益 后 ,会 根据 信 
息 增 益 的 高 低 对 样本 数据 进行 分 类 排序 。 在 决策 树 建 
立时 ,也 会 根据 信息 增益 的 高 低 对 样本 数据 进行 划分 
直至 划分 至 叶子 结 点 ,如 此 可 得 到 各 个 影响 因素 的 相 
对 重要 性 排序 。 因 此 ,信息 增益 可 理解 为 各 个 影响 因 
素 特征 的 影响 因子 ,其 具体 计算 方法 如 下 :给 定 样本 D 
和 特征 a, 依 据 与 特征 a 相对 应 的 决策 准则 可 以 将 样本 
D 分 成 n 个 子 集 D1 ,D2,，…,Dn。 则 特征 a 对 于 样本 D 
的 信息 增益 如 下 ,H(D) 和 H(Dla) 分 别 指 样本 D 的 信 
息 炉 以 及 样本 D 关于 特征 a 的 交叉 信息 业 。 


g(Dla) =H(D) - H(Dla_ 公式 (2) 
uk ck ck > 

HD) = - Z 全 oog 1 全。 公式 (3) 

H(Dla) = - 5", PADi) 公式 (4) 


结合 公式 (2) (3) 、(4) 可 以 看 出 ,信息 增益 代表 
引入 特征 a 之 后 ,样本 DD 不 确定 性 的 降低 程度 ,因此 信 
息 增 益 可 以 用 来 反映 特征 a 对 样本 DD 产生 的 影响 。 
5.4.2 阅 值 按 信息 增益 对 各 个 影响 因素 特征 进行 
排序 后 ,随机 森林 中 决策 树 的 分 类 规则 就 大 致 确定 了 。 
除 此 之 外 ,还 需 对 决策 节点 的 影响 因素 特征 选择 姜 值 。 
国 值 即 决策 树 的 分 类 规则 ,合理 的 冰 值 选择 能 使 样本 


经 6 为 无 序 特征 。 对 于 无 序 特 征 的 量化 一 般 采 用 独 热 纺 
码 方式 ,即将 十 进 制 编码 转化 为 稀 政 表示 的 多 位 二 进 制 
编码 ,生成 的 二 进 制 编码 中 ,只 有 一 位 为 1, 其 它 位 均 为 
0。 以 Q1 为 例 , 独 热 编 码 分 别 为 : 男 10, 女 0 1。 
5.4 ”模型 训练 与 评估 

笔者 选择 随机 森林 算法 建立 决策 树 模型 ,为 提高 
模型 的 精度 和 预测 准确 率 ,将 收集 到 的 392 份 问卷 作 
为 样本 进行 模型 训练 ,并 采用 留 一 法 验证 模型 精度 , 模 
型 误差 为 0. 1475, 预测 准确 率 ( 即 模型 精度 ) 达 
85.25% 。 每 一 个 样本 中 均 包 括 Q1 - Q35 这 35 个 影响 
因素 特征 和 Q36 这 1 个 待 预测 的 标签 质量 ,其 中 标签 
质量 由 李 克 特 量 表 的 五 级 评分 表示 ,因此 , 建 模 本 质 是 
一 个 五 分 类 的 有 监督 学 习 问题 ,分 类 目的 在 于 得 出 各 
个 影响 因素 特征 对 标签 质量 的 影响 权重 。 
5.4.1 信息 增益 和 影响 因子 ”利用 随机 森林 算法 测 
量 各 个 影响 因素 特征 对 标签 质量 的 影响 权重 ,其 关键 


被 尽 可 能 准确 地 划分 至 其 应 属 的 类 别 。 

关于 阔 值 优 确定 的 方法 有 很 多 ,对 于 离散 特征 ,最 
简单 的 是 先 穷 举 特征 可 能 取 到 的 所 有 值 ,把 所 有 值 都 
作为 闷 值 ,计算 各 阔 值 下 特征 的 信息 增益 水 平 ,然后 按 
需 选 择 其 中 一 个 或 多 个 作为 真正 的 靖 值 ,以 使 得 在 该 
阔 值 的 作用 下 特征 能 对 数据 集 产 生 最 大 的 信息 增益 。 
在 本 研究 中 ,Q8 是 对 标签 质量 影响 最 大 的 特征 , 排 在 
第 1 位 ,其 阅 值 为 4.53。 在 对 一 个 样本 进行 测试 时 , 首 
先 判断 其 特征 Q8 的 值 (6) 是否 大 于 4.53, 从 而 将 其 划 
入 左 侧 决 策 结 点 。 再 判断 特征 Q27 的 值 (2) 是 否 大 于 
3.82 ,从 而 将 其 划 入 右 侧 决策 节点 …… 依 此 类 推 。 
5.4.3 模型 训练 与 评估 “影响 因素 特征 排序 和 净值 
确定 之 后 , 即 可 建立 随机 森林 的 各 个 决策 树 ,进而 得 到 
集成 算法 的 最 终结 果 ,完成 标签 质量 影响 因素 的 决策 
树 模型 的 构建 。 

模型 建立 之 后 ,采用 留 一 法 对 其 进行 评估 及 测试 ， 
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本 研究 共有 392 份 样本 数据 ,每 次 随机 抽取 1 个 样本 
作为 测试 集 , 剩 下 的 391 份 样本 作为 训练 集 ,总 共 随 机 
抽取 了 100 次 ,结果 指出 100 个 测试 数据 的 正确 率 达 
92% , 即 模型 预测 准确 率 达 到 92% , 故 模型 具有 较 好 
的 预测 效果 。 

图 2 展示 了 其 中 一 个 样本 的 预测 过 程 。 决 策 树 示 
意图 中 矩形 表示 决策 结 点 ,圆圈 表示 机 会 结 点 ,三 角形 
表示 叶子 结 点 。 模 型 训练 时 计算 出 特征 Q8 的 信息 增 
益 最 大 ,因此 选择 其 作为 第 1 次 决策 的 判断 依据 ,而 最 
佳 阔 值 为 4. 53 。 当 输入 测试 样本 的 Q1 - Q35 这 35 个 特 
征 值 之 后 , 首先 判断 其 特征 Q8 的 值 (6) 是 否 大 于 
4. 53 ,从 而 将 其 划 入 左 侧 的 决策 结 点 ; 接 下 来 将 Q27 作 
为 第 2 次 决策 的 依据 ,其 阔 值 为 3. 82 ,从 而 划 入 右 侧 的 
决策 节点 。 接 下 来 依次 以 信息 增益 次 高 的 特征 为 标准 ， 
重复 上 述 过 程 ,直至 达到 叶子 结 点 ,从 而 得 到 决策 :该 样 
术 的 标签 质量 等 级 即 Q36 为 3。 图 2 中 加 粗 的 箭头 表示 
so 
特 行 好 


值 (对 调查 问卷 中 前 35 个 问题 的 答案 ) , 均 可 以 
按 这 个 方法 推测 出 标签 质量 的 等 级 (Q36)。 
5 人 4 影响 因子 分 析 在 模型 训练 和 评估 过 程 中 , 随 
桃 夭 林 算法 即 可 根据 样本 数据 计算 出 各 个 影响 因素 特 
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| Rule:Q25 Threshold:1.72 


Q25>=1.7: Q25<1.72 


Subset p-(q-1) Subset p-q 


Prediction of tag quality:Level3 -A 候 Prediction of tag qualityLevel 4 


2 决策 树 模型 及 一 个 样本 的 预测 过 程 示意 图 


征 的 信息 增益 , 即 各 个 影响 因素 特征 的 影响 因子 ( 见 图 
3)。 图 像 模 轴 以 调查 问卷 中 间 题 的 编号 来 标记 各 个 特 
征 ,而 纵 轴 则 以 信息 增益 反映 各 特征 的 影响 因子 。 进 
一 步 ,可 通过 PCA 降 维 算法 计算 出 各 个 维度 的 影响 因 
子 ( 见 图 4) 。 图 像 横 轴 以 维度 名 称 来 标记 , 纵 轴 则 以 
言 息 增益 反映 各 维度 的 影响 因子 。 


Importance 
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各 个 影响 因素 特征 


图 3 


如 图 4 所 示 ,6 个 维度 对 于 标签 质量 的 影响 权重 
按 从 高 到 低 依次 为 标注 主体 .标注 方式 \ 标 注 动机 、 标 
注 产 物 ,标注 客体 和 标注 环境 。 

标注 主体 是 对 标签 质量 影响 最 大 的 因素 。 在 该 维 
度 内 ,主体 的 知识 结构 和 认 知 水 平 (Q8) .主体 的 标注 
频 度 (Q9) .主体 的 感知 有 用 性 (Q13 ) 排 在 单 因素 中 的 
第 一 位 .第 四 位 和 第 五 位 ,对 标签 质量 均 影 响 显著 。 


影响 因素 特征 对 标签 质量 的 影响 因子 


其 中 ,标签 推荐 (Q27) 和 规范 标签 提示 (Q28 ) 排 在 单 因 素 
中 的 第 二 三 位 ,也 是 对 标签 质量 影响 突出 的 因素 。 

标注 动机 的 影响 因子 略 低 于 标注 方式 , 排 在 第 三 
位 。 其 中 ,揭示 资源 主题 /分 类 /属性 (Q20 ) 的 标注 动 
机 对 标签 质量 的 影响 较 大 , 排 在 单 因 素 第 六 位 。 

除 上 述 关键 维度 和 关键 因素 外 ,标注 产物 ,标注 客 
体 和 标注 环境 3 个 维度 对 标签 质量 的 影响 因子 均 相 对 


标注 方式 的 影响 因子 仅 次 于 标注 主体 , 排 在 第 二 位 。 
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较 低 ,但 不 乏 其 中 单个 因素 对 标签 质量 产生 重要 影响 。 


ChinaXiv 合 作 期 刊 


张 云 中 , 秦 艺 源 . 社会 化 标注 系统 标签 质量 影响 因素 研究 :基于 随机 森林 算法 [J]. 图 书 情报 工作 ,2019 ,63(24) :119 -126. 
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维度 特征 


4 6 个 维度 特征 对 标签 质量 的 影响 因子 


例如 标注 产物 维度 中 的 错 拼 (Q34) .标注 客体 维度 中 
的 资源 类 型 (Q14) 以 及 标注 环境 维度 中 的 社会 化 标注 
系统 的 功能 完整 性 (Q17 ) 都 是 对 标签 质量 有 重要 影响 
的 因素 。 

全 理 清 社 会 化 标注 系统 标签 质量 影响 因素 的 权重 ， 
对 针对 性 地 提高 社会 化 标注 系统 中 标签 质量 意义 重 
龙 影 响 标 签 质量 的 关键 维度 具体 如 下 ; 

忆 (1) 标 注 主体 是 影响 标签 质量 的 首要 关键 维度 。 
其 下 ,主体 的 知识 结构 和 认 知 水 平 多 由 用 户 的 受 教育 
程 遍 与 生活 背景 决定 ,属于 不 易 操控 和 改变 的 客观 因 
闽 放 提高 标签 质量 应 注重 从 主体 的 标注 频 度 和 感知 
有 围 性 入 手 。 鉴 于 此 ,社会 化 标注 系统 应 注重 调动 用 
请 剖 与 标注 网 络 资源 的 积极 性 ,通过 提升 用 户 的 标注 
频率 来 积累 标注 经 验 ,并 使 用 户 充分 认识 到 标注 高 品 
成 标签 对 于 社会 化 标注 系统 网 络 资源 分 类 ,交流 、 共 享 
的 时 要 性 ,进而 通过 主体 的 主观 能 动 性 标注 更 多 较 高 
质量 的 标签 。 

CD(2) 标注 方式 是 影响 标签 质量 的 次 要 关键 维度 ， 


0152714623 


写 . 单 复数 、 缩 写 词 结合 词 . 简 繁体 等 词汇 控制 机 制 ， 
对 于 意义 不 明 的 缩 略 词 应 提醒 用 户 进一步 修改 ,避免 
缩 略 词 引发 的 歧义 (例如 CS 之 于 “Computer Science” 
和 “游戏 名 称 ”) ,使 标签 具有 专 指 性 。 

(3) 标 注 动机 对 于 标签 质量 的 影响 排 在 第 三 位 。 
其 中 ,揭示 资源 主题 /分 类 /属性 的 标注 动机 对 标签 质 
量 的 影响 最 大 。 因 此 ,系统 可 设立 标注 维度 的 提示 机 
制 ,鼓励 并 提示 用 户 对 资源 的 主题 分类、 属性 等 维度 
展开 重点 标注 ,生成 更 多 关于 资源 内 容 特征 的 高 品质 
标签 。 

此 外 ,提高 标签 质量 也 可 从 错 拼 ,资源 类 型 以 及 社 
会 化 标注 系统 的 功能 完整 性 等 角度 采取 措施 ,具体 如 
下 :中 社会 化 标注 系统 可 建立 标签 纠 错 机 制 , 当 识 别 到 
用 户 标 注 的 标签 存在 拼写 错误 时 ,系统 会 给 用 户 提示 
或 反馈 修改 建议 ,减少 垃圾 标签 的 产生 ;@ 调 查 数据 表 
明 ,相对 于 富 媒体 类 型 资源 ,用 户 对 文本 资源 更 容易 标 
注 出 高 质量 的 标签 ,因而 社会 化 标注 系统 应 注重 对 资 
源 类 型 进行 划分 ,实现 文本 资源 和 富 媒体 资源 的 区 别 标 
注 ,使 资源 类 型 标注 的 分 区 设置 在 一 定 上 实现 标签 质量 
的 大 致 分 级 ;@) 社 会 化 标注 系统 应 定期 在 平台 中 发 布 与 
昌 户 体验 和 需求 相关 的 调查 问卷 ,依据 用 户 需 求 完善 标 
注 .检索 导航、 推荐. 群 组 .分 类 等 功能 ,优化 标注 流程 ， 
增加 界面 的 设计 亲 和 性 和 用 户 的 使 用 便利 性 。 


6 结论 与 展望 

笔者 从 社会 化 标注 系统 中 标签 质量 的 影响 因素 出 
发 ,运用 问卷 调查 法 获得 用 户 关于 各 个 影响 因素 的 看 法 
和 态度 ,并 采用 随机 森林 的 机 器 学 习 算 法 建立 标签 质量 


< 


2 


其 中 标签 推荐 和 规范 标签 提示 是 影响 标签 质量 的 重要 
因素 。 为 提高 标签 质量 ,社会 化 标注 系统 可 以 采取 如 
下 措施 :中 设立 标注 指南 ,在 标注 区 建立 帮助 文档 说 明 
标注 的 相关 事项 ,方便 用 户 掌 握 标 注 要 点 。 如 在 标注 
区 提供 “标注 过 程 详解 “标注 注意 事项 "等 。@ 思 设立 


影响 因素 的 决策 树 模型 ,得 出 各 个 影响 因素 关于 标签 质 
量 的 影响 因子 。 主 要 得 出 以 下 结论 :标注 主体 是 影响 标 
签 质量 的 首要 关键 维度 ,主体 的 知识 结构 和 认 知 水 平 、 
标注 频 度 及 其 感知 有 用 性 对 标签 质量 的 影响 突出 ;标注 
方式 是 影响 标签 质量 的 次 要 关键 维度 ,标签 推荐 和 规范 


规范 标签 推荐 机 制 ,采用 分 类 词 表 .主题 词 表 等 受 控 词 
表 或 语义 规范 的 高 频 标 签 列表 等 非 受 控 词 表 引 导 的 标 
签 推荐 机 制 ,使 得 用 户 在 标注 资源 时 能 在 一 定 程度 上 


标签 提示 也 是 影响 标签 质量 的 重要 因素 。 
与 现 有 相关 研究 相 比 , 本 研究 的 重要 价值 和 作用 
主要 体现 在 4 个 方面 :DD 关注 的 问题 更 普遍 ,到 焦 于 不 


优先 选择 系统 推荐 的 规范 标签 ; 男 外 ,也 可 引入 “ 同 义 
词 环 " 等 概念 语义 网 络 ,在 用 户 输入 标签 时 向 其 推荐 语 
义 相近 的 规范 标签 ,如 当 用 户 在 输入 "维他命 "时 , 系 
统 可 出 现 “ 维 生 素 ” 等 规范 词汇 的 推荐 。@@ 设 置 输入 
标签 的 长 度 限制 和 符号 限制 ,如 设 定 标签 的 最 长 字符 
数 , 规 定 标 签 不 含 标点 符号 ,多 个 标签 之 间 用 分 号 隔 开 
等 ,以 此 提高 标签 的 精炼 和 准确 性 。 岂 设置 标签 大 小 


同 的 社会 化 标注 系统 标签 质量 影响 因素 的 共性 ,结论 
更 具 普 适 性 ;@ 梳 理 的 影响 因素 更 加 全 面 ,从 标注 主 
体 、, 标 注 客体 ,标注 环境 ,标注 动 机 、 标 注 方式 标注 产 
物 等 角度 综合 考虑 影响 标签 质量 的 各 个 因素 ,理论 杠 
架 更 加 完善 ;@ 权 重 值 的 计算 方法 更 科学 ,运用 随机 森 
林 算 法 直接 对 调查 数据 进行 客观 训练 得 到 权重 ,减少 
人 为 主观 判断 ,求解 过 程 更 客观 ;由 对 策 提 出 更 具 针 对 
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性 ,从 关键 影响 因素 人 手提 出 标签 质量 改进 策略 。 

综 上 ,本 研究 结果 建立 的 标签 质量 影响 因素 预测 
模型 ,不 仅 解释 性 强 ,而 且 建 立 了 影响 因素 特征 和 标签 
质量 之 间 的 显 性 表达 式 ,提供 了 多 属性 权重 值 计算 的 
新 方法 。 权 重 值 的 确定 不 仅 可 以 明晰 当前 标签 低 质量 
问题 产生 的 原因 ,也 可 作为 提高 标签 质量 的 参考 依据 ， 
同时 为 标签 质量 评估 体系 中 指标 权重 的 确定 提供 了 可 
靠 依据 。 目 前 ,标签 质量 评估 大 都 基于 标签 的 统计 属 
性 指标 ( 如 标签 对 应 资源 阅读 次 数 、. 推 荐 数 、 评 论 数 
等 ) 进 行人 工 在 线 打分 评估 和 自动 化 评估 ,但 各 个 统计 
指标 的 权重 却 无 从 得 知 。 本 研究 得 到 的 标签 质量 影响 
因素 的 影响 因子 即 可 作为 权重 指标 的 参考 ,与 统计 指 
标 体系 相 结合 以 更 好 地 完善 标签 质量 评估 体系 ,这 将 
是 后 续 研究 的 方向 之 一 。 
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Research on Influencing Factors of Tag Quality in Social Tagging System : Based on Random Forest 


Zhang Yunzhong Qin Yiyuan 


Department of Library, Information and Archives, Shanghai University ,Shanghai 200444 


Abstract: [Purpose/significance | Tag quality is often related to users ”experience of classification, query, browsing, 


acquisition of online resources in social tagging system. Identifying key influencing factors of tag quality can optimize the core 


functions of resources organization of STS. [Method/process | Based on tags, we provided the influencing factors model of tag 


quality from six perspectives, which covered tagging subject, tagging object, tagging environment, tagging motivation, tagging 


methods and tagging products. The study attempted to explore the key influencing factors of tag quality by questionnaire, and es- 


tablished the decision tree model of influencing factors of tag quality based on Random Forest. [Result/conclusion | Tagging 


subject is the primary key dimension affecting tag quality. And the impact of the subject’ s knowledge structure and cognitive 


level, the subject’ s tagging frequency, and the subject’ s perceived usefulness are prominent. Tagging methods are the seconda- 


ry one, and tag recommendation and standard tag tips are main influencing factors. 


Keywords: social tagging system 
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